人工智能的梦想从来不仅仅是制造一个击败特级大师的国际象棋引擎或一个试图拆散婚姻的聊天机器人。 它的目标一直是让我们正视自身的智能,以便我们能够更好地了解自己。 研究人员追求的不仅仅是人工智能,而是通用人工智能(AGI)——一种具有类人适应性和创造力的系统。
大型语言模型已经获得了比大多数研究人员预期的更强的解决问题的能力。 但是,它们仍然会犯愚蠢的错误,并且缺乏开放式学习的能力:一旦它们接受了书籍、博客和其他材料的训练,它们的知识库就会被冻结。 它们无法通过人工智能公司 SingularityNET 的 Ben Goertzel 所谓的“机器人大学生测试”:你无法让它们上大学(甚至幼儿园也不行)。
这些系统明确解决的通用人工智能的一个部分是语言。 它们拥有专家所说的形式能力:它们可以解析你给它们的任何句子,即使句子是零散的或俚语化的,并以可以称为维基百科标准英语的方式回应。 但是,他们在其余的思考方面都失败了——即帮助我们应对日常生活的一切。 “我们不应该期望它们能够思考,”麻省理工学院的神经科学家南希·坎维舍说。“它们是语言处理器。” 它们熟练地操纵文字,但除了它们吸收的文本之外,无法接触到现实。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业: 订阅。 通过购买订阅,您正在帮助确保未来能够继续刊登关于塑造我们当今世界的发现和思想的具有影响力的报道。
在某种程度上,大型语言模型仅模仿大脑的语言能力,而没有感知、记忆、导航、社会判断等能力。 我们的灰质执行着令人眼花缭乱的重叠功能混合,其中一些功能广泛分布于整个大脑,另一些则更局部化。 语言区域中风的人可能无法说话,但仍然可以像以前一样进行数字加法、创作交响曲、下棋和通过手势进行交流。 人工智能开发人员正在将这种模块化融入到他们的系统中,以期使其更智能。
Generative Pre-trained Transformer (GPT) 的创造者 OpenAI 允许付费用户选择插件来处理数学、互联网搜索和其他类型的查询。 每个插件都调用一些与其专业相关的外部知识库。 此外,对于用户来说是不可见的,核心语言系统本身可能在某种意义上是模块化的。 OpenAI 对规范保密,但许多人工智能研究人员推测 GPT 由多达 16 个独立的神经网络或“专家”组成,它们汇集对查询的答案——尽管它们如何分工尚不清楚。 去年 12 月,总部位于巴黎的人工智能公司 Mistral 发布了这种“专家混合”架构的开源版本,引起了轰动。 这种简单形式的模块化的主要优点是其计算效率:训练和运行 16 个较小的网络比单个大型网络更容易。“让我们两全其美,”爱丁堡大学的人工智能研究员埃多拉多·庞蒂说。“让我们获得一个具有大量参数的系统,同时保持小得多的模型的效率。”
但是模块化也带来了权衡。 没有人确定大脑区域如何协同工作以创造一个连贯的自我,更不用说机器如何模仿它了。 “信息如何从语言系统传递到逻辑推理系统或社会推理系统?” 佐治亚理工学院的神经科学家安娜·伊万诺娃想知道。“这仍然是一个悬而未决的问题。”
一种具有启发性的假设是,意识是共同的基础。 根据这种被称为全局工作空间理论(GWT)的观点,意识对于大脑来说就像员工会议对于公司一样:模块可以在其中共享信息并寻求帮助的地方。 GWT 远非唯一的意识理论,但它对人工智能研究人员特别感兴趣,因为它推测意识是高层智能不可或缺的一部分。 为了完成简单或排练过的任务,大脑可以自动驾驶,但新颖或复杂的任务(那些超出单个模块范围的任务)需要我们意识到自己在做什么。
Goertzel 和其他人已将工作空间整合到他们的人工智能系统中。 “我认为全局工作空间模型的核心思想将以许多不同的形式出现,”他说。 在设计该模型的电子表示形式时,研究人员并不是要制造有意识的机器; 相反,他们只是在复制特定意识理论的硬件,以试图实现类人智能。
他们会不经意间创造出一个有感觉和动机的有情生物吗? 这是可以想象的,尽管即使是 GWT 的发明者,加利福尼亚州拉霍亚神经科学研究所的 Bernard Baars 也认为这是不可能的。 “有意识的计算是一种毫无证据的假设,”他说。 但是,如果开发人员确实成功构建了 AGI,他们就可以为智能本身的结构和过程提供重要的见解。
长期以来,GWT 一直是神经科学和人工智能研究如何相互作用的案例研究。 这个想法可以追溯到 20 世纪 50 年代计算机科学家奥利弗·塞尔弗里奇提出的图像识别系统“Pandemonium”。 他将系统的模块想象成在弥尔顿式的地狱景象中尖叫着引起注意的恶魔。 他的同时代人艾伦·纽厄尔更喜欢更沉稳的隐喻,即数学家们聚集在黑板周围共同解决问题。 这些想法被认知心理学家采纳。 在 20 世纪 80 年代,巴尔斯提出了 GWT 作为人类意识的理论。 “我的整个职业生涯都从人工智能中学到了很多东西,主要是因为它是我拥有的唯一可行的理论平台,”他说。
巴尔斯启发了孟菲斯大学的计算机科学家斯坦利·富兰克林尝试制造一台有意识的计算机。 无论富兰克林的机器是否真的有意识——巴尔斯和富兰克林本人对此都表示怀疑——它至少再现了人类心理学的各种怪癖。 例如,当它的注意力从一件事转移到另一件事时,它会遗漏信息,因此它和人类一样不擅长多任务处理。 从 20 世纪 90 年代开始,巴黎法兰西学院的神经科学家 Stanislas Dehaene 和 Jean-Pierre Changeux 研究了哪种类型的神经元布线可以实现工作空间。
在这种方案中,大脑模块主要独立运行,但大约每十分之一秒,它们就会举行一次员工会议。 这是一场有组织的叫喊比赛。 每个模块都有一些信息要提供,并且它对该信息越有信心——例如,刺激与预期的匹配程度越高——它喊得越大声。 一旦一个模块胜出,其他模块就会安静片刻,获胜者将其信息放入一组公共变量中:工作空间。 其他模块可能会或可能不会发现该信息有用; 每个模块都必须自行判断。 “你会得到这种有趣的子代理之间合作与竞争的过程,每个子代理都掌握着解决方案的一小部分,”巴尔斯说。
工作空间不仅允许模块彼此通信,而且还提供了一个论坛,即使信息不再呈现给感官,模块也可以在此论坛中集体思考信息。 “你可以拥有一些现实元素——也许是一种转瞬即逝的感觉,它消失了,但在你的工作空间中,它会继续回响,”德海恩说。 这种审议能力对于解决涉及多个步骤或持续较长时间的问题至关重要。 德海恩进行过心理学实验,在实验中他给实验室的人们提出了这样的问题,他发现他们必须有意识地思考这些问题。
如果这个系统听起来像无政府主义,那就对了。 它取消了在模块之间委派任务的老板,因为委派很难做好。 在数学中,委派——或在不同的参与者之间分配责任以实现最佳性能——属于所谓的 NP-hard 问题的范畴,这些问题可能非常耗时才能解决。 在许多方法中,例如 OpenAI 认为使用的专家混合架构,一个“门控”网络分配任务,但它必须与各个模块一起训练,并且训练过程可能会崩溃。 首先,它遭受了庞蒂所描述的“鸡和蛋问题”:因为模块依赖于路由,而路由依赖于模块,所以训练可能会陷入循环。 即使训练成功,路由机制也是一个黑匣子,其工作原理是不透明的。
2021 年,卡内基梅隆大学的数学家和荣誉退休教授曼努埃尔·布鲁姆和莱诺尔·布鲁姆研究了全局工作空间中争夺注意力的战斗细节。 他们包含了一种机制,以确保模块不会夸大它们带来的信息的信心,从而防止少数自吹自擂者接管。 布鲁姆夫妇(已婚)还建议,模块可以开发直接互连以完全绕过工作空间。 例如,这些侧面链接可以解释当我们学习骑自行车或演奏乐器时会发生什么。 一旦模块共同弄清楚它们中的哪些需要做什么,它们就会使任务离线。“它将通过短期记忆的处理转变为无意识的处理,”莱诺尔·布鲁姆说。
有意识的注意力是一种稀缺资源。 工作空间没有太多空间容纳信息,因此获胜的模块必须非常有选择性地选择其传递给其他模块的内容。 这听起来像是一个设计缺陷。 “为什么大脑会限制我们同时思考多少事情?” 蒙特利尔大学的人工智能研究员约书亚·本吉奥问道。 但他认为这种约束是一件好事:它强制执行认知纪律。 由于无法跟踪世界的所有复杂性,我们的大脑必须识别出构成世界基础的简单规则。 “这种瓶颈迫使我们对世界的运作方式产生理解,”他说。
对于本吉奥来说,这就是 GWT 对人工智能的重要教训:今天的人工神经网络过于强大,以至于适得其反。 它们拥有数十亿或数万亿个参数,足以吸收互联网的大量信息,但往往会陷入细节,无法从它们接触到的信息中提取更大的教训。 如果它们庞大的知识库必须通过一个狭窄的漏斗,有点像我们有意识的头脑的运作方式,它们可能会做得更好。
本吉奥将类似意识的瓶颈纳入人工智能系统的努力在他开始考虑 GWT 之前就开始了。 在 2010 年代初期,本吉奥和他的同事们对我们的大脑如何有选择地专注于一条信息并暂时阻止其他一切印象深刻,他们在神经网络中构建了一个类似的过滤器。 例如,当 GPT 等语言模型遇到代词时,它需要找到先行词。 它通过突出显示附近的名词并使其他词性变灰来实现这一点。 实际上,它“注意”理解文本所需的关键词。 代词也可能与形容词、动词等相关联。 网络的各个部分可以同时关注不同的词语关系。
但本吉奥发现,这种注意力机制带来了一个微妙的问题。 假设网络完全忽略了一些单词,它会通过为与这些单词对应的计算变量分配零值来做到这一点。 如此突然的变化会给训练网络的标准程序带来麻烦。 该程序称为反向传播,涉及将网络的输出追溯到产生它的计算,这样如果输出错误,您就可以找出原因。 但是你无法通过突然的变化来追溯。
因此,本吉奥和其他人设计了一种“软注意力机制”,网络在这种机制中是有选择性的,但又不过分。 它为各种选项分配数值权重,例如代词可能与哪些词相关。 尽管有些词的权重高于其他词,但所有词都保留在游戏中; 网络永远不会做出艰难的选择。 “你得到 80% 的这个,20% 的那个,并且因为这些注意力权重是连续的,你实际上可以进行 [微积分] 并应用反向传播,”本吉奥说。 这种软注意力机制是“transformer”架构(GPT 中的“T”)的关键创新。
近年来,本吉奥重新审视了这种方法,以创建一个更严格的瓶颈,他认为如果网络要实现接近真正理解的目标,这很重要。 真正的工作空间必须做出艰难的选择——它没有空间来跟踪所有选项。 2021 年,本吉奥和他的同事设计了一个“生成流”网络,该网络根据注意力权重确定的概率定期选择可用选项之一。 他没有仅仅依靠反向传播,而是训练网络在正向或反向方向上工作。 这样,即使发生突然的变化,它也可以返回来修复任何错误。 在各种实验中,本吉奥表明,该系统开发了输入数据的高级表示,这些表示与我们自己的大脑获得的表示平行。
实施全局工作空间的另一个挑战是过度专业化。 就像不同大学部门的教授一样,大脑的各个模块创造出彼此难以理解的行话。 视觉区域提出了抽象概念,使其能够处理来自眼睛的输入。 听觉模块开发了适合内耳振动的表示。 那么它们是如何沟通的呢? 他们必须找到某种通用语,或者亚里士多德所说的常识——该术语的最初含义。 这种需求在科技公司一直在引入的“多模态”网络中尤其迫切,这些网络将文本与图像和其他形式的数据相结合。
在 Dehaene 和 Changeux 版本的 GWT 中,模块通过神经元连接,这些神经元调整其突触以将传入数据转换为本地语言。 “他们将[输入]转换为他们自己的代码,”德海恩说。 但细节很模糊。 事实上,他希望试图为人工神经网络解决类似问题的人工智能研究人员能够提供一些线索。 “工作空间更像是一个想法; 它几乎不能算作理论。 我们正在努力使其成为一种理论,但它仍然很模糊——而且工程师们拥有将它变成一个工作系统的非凡才能,”他说。
2021 年,神经科学家兼东京人工智能公司 Araya 创始人金井良太,以及另一位涉足人工智能的神经科学家、法国图卢兹大学的 Rufin VanRullen,提出了一种让人工神经网络执行翻译的方法。 他们的灵感来自谷歌翻译等语言翻译系统。 这些系统是迄今为止人工智能最令人印象深刻的成就之一。 他们可以完成他们的工作,而无需被告知,例如,英语中的“love”与法语中的“amour”含义相同。 相反,他们孤立地学习每种语言,然后通过他们的掌握,推断出哪个词在法语中扮演着与英语中的“love”相同的角色。
假设你用英语和法语训练两个神经网络。 每个网络都收集了各自语言的结构,并开发了一种称为潜在空间的内部表示。 本质上,它是一个词云:一种语言中所有词语关联的地图,通过将相似的词语彼此靠近放置,而不相关的词语放置得更远来构建。 云有一个独特的形状。 事实上,这两种语言的形状相同,因为尽管它们存在所有差异,但它们最终都指向同一个世界。 你所需要做的就是旋转英语和法语词云,直到它们对齐。 你会发现“love”与“amour”对齐。“在没有字典的情况下,通过查看嵌入在每种语言的潜在空间中的所有单词的星座,你只需要找到正确的旋转来对齐所有点,”金井说。
因为该程序可以应用于整个段落以及单个单词,所以它可以处理细微的含义差异以及在另一种语言中没有直接对应词的单词。 这种方法的一个版本可以在不相关的语言(如英语和中文)之间进行翻译。 它甚至可能适用于动物交流。
VanRullen 和金井认为,此程序不仅可以在语言之间进行翻译,还可以在不同的感官和描述模式之间进行翻译。 “你可以通过独立训练图像处理系统和语言处理系统来创建这样一个系统,然后实际上你可以通过对齐它们的潜在空间将它们组合在一起,”金井说。 与语言一样,翻译之所以成为可能,是因为这些系统基本上都指向同一个世界。 这种洞察力正是德海恩所希望的:人工智能研究如何深入了解大脑运作方式的一个例子。 “神经科学家从未考虑过对齐潜在空间的这种可能性,”金井说。
为了了解这些原则如何付诸实践,金井与现任职于微软的 Arthur Juliani 以及 Araya 的笹井俊太郎合作,研究了 Google DeepMind 于 2021 年发布的 Perceiver 模型。 它旨在将文本、图像、音频和其他数据融合到单个通用潜在空间中; 2022 年,谷歌将其整合到一个为 YouTube Shorts 自动编写描述的系统中。 Araya 团队进行了一系列实验来探测 Perceiver 的工作原理,发现虽然它并非刻意设计为全局工作空间,但它具有全局工作空间的特征:独立模块、在模块之间进行选择的过程以及工作记忆——工作空间本身。
工作空间式思想的一个特别有趣的实现是《AI People》,这是一款即将推出的类似 Sims 的游戏,由总部位于布拉格的人工智能公司 Good-AI 创建。 我去年夏天看到的版本设置在一个监狱院子里,里面挤满了罪犯、腐败的狱警和认真的精神科医生,但该公司也计划推出更和平的场景。 该游戏使用 GPT 作为角色的“大脑”。 它不仅控制他们的对话,还控制他们的行为和情绪,使他们具有一定的心理深度; 该系统跟踪角色是愤怒、悲伤还是焦虑,并相应地选择其行动。 开发人员添加了其他模块——包括以短期记忆形式存在的全局工作空间——以赋予角色一致的心理,并让他们在游戏环境中采取行动。“这里的目标是将大型语言模型用作引擎,因为它非常好,然后在它周围构建长期记忆和某种认知架构,”GoodAI 创始人 Marek Rosa 说。
人工智能领域一项潜在的突破性进展来自 Meta 的研究员 Yann LeCun。 尽管他没有直接引用全局工作空间作为灵感,但他在挑战生成模型(GPT 中的“G”)目前的霸权时,通过自己的道路得出了许多相同的想法。“我反对目前在人工智能/机器学习社区中不幸非常流行的一些事物,”LeCun 说。“我告诉人们:放弃生成模型。”
生成神经网络之所以如此命名,是因为它们根据接触到的内容生成新的文本和图像。 为了做到这一点,他们必须对细节一丝不苟:他们必须知道如何拼写句子中的每个单词以及在图像中放置每个像素。 但是,如果说智能有什么的话,那就是有选择地忽略细节。 因此,LeCun 提倡研究人员回到现在不流行的“判别式”神经网络技术,例如图像识别中使用的那些技术,之所以如此称呼,是因为它们可以感知输入之间的差异——例如,狗与猫的图片。 这样的网络不构建自己的图像,而只是处理现有图像以分配标签。
LeCun 开发了一种特殊的训练方案,使判别式网络能够提取文本、图像和其他数据的基本特征。 它可能无法自动完成句子,但它创建了抽象表示,LeCun 希望这些表示类似于我们自己大脑中的表示。 例如,如果您输入一段汽车在道路上行驶的视频,则表示应捕获其品牌、型号、颜色、位置和速度,同时省略沥青路面上的颠簸、水坑上的涟漪、路边草叶上的闪光——任何我们的头脑会忽略为不重要的东西,除非我们专门关注它。 “所有这些不相关的细节都被消除了,”他说。
这些简化的表示形式本身并没有用处,但它们使一系列认知功能成为可能,这些功能对于 AGI 至关重要。 LeCun 将判别式网络嵌入到一个更大的系统中,使其成为类脑架构的一个模块,该架构包括 GWT 的关键特征,例如短期记忆和一个“配置器”,用于协调模块并确定工作流程。 例如,该系统可以计划。“我从心理学中已知的非常基本的事物中获得了很大的启发,”LeCun 说。 正如人脑可以进行思想实验,想象某人在不同情况下的感受一样,配置器将多次运行判别式网络,遍历假设行动列表,以找到将实现预期结果的行动。
LeCun 说,他通常倾向于避免对意识得出结论,但他提出了他所谓的“民间理论”,即意识是配置器的工作,这在他的模型中起着与巴尔斯理论中的工作空间大致相同的角色。
如果研究人员成功地在人工智能系统中构建了一个真正的工作空间,那会使它们有意识吗? 德海恩认为会,至少如果与自我监控能力相结合。 但巴尔斯对此表示怀疑,部分原因是他仍然不太相信自己的理论。“我一直在怀疑 GWT 是否真的那么好,”他说。 在他看来,意识是一种生物功能,是生物体构成的特有功能。 富兰克林在几年前我采访他时也表达了类似的怀疑。(他于去年去世。)他认为,全局工作空间是进化对身体需求的回答。 通过意识,大脑从经验中学习并快速解决复杂的生存问题。 他认为,这些能力与人工智能通常应用的问题类型无关。“你必须拥有一个具有真正思想和控制结构的自主代理,”他告诉我。“这个代理必须有一种生活——这并不意味着它不能是机器人,但它必须经历某种发展。 它不会完全成熟地来到这个世界。”
英国苏塞克斯大学的神经科学家 Anil Seth 同意这些观点。“意识与聪明无关,”他说。“它同样与活着有关。 无论通用人工智能有多聪明,如果它们不是活着的,就不太可能有意识。”
Seth 没有认可 GWT,而是赞同一种称为预测处理的意识理论,根据该理论,有意识的生物试图预测将要发生在它身上的事情,以便做好准备。“理解有意识的自我始于理解身体控制的预测模型,”他说。 Seth 还研究了整合信息理论,该理论将意识与大脑的复杂网络结构联系起来,而不是大脑的功能。 根据该理论,意识不是智能不可或缺的一部分,而可能是出于生物效率的原因而产生的。
目前,人工智能是一个富含思想的领域,工程师们已经有很多线索可以跟进,而无需从神经科学中导入更多内容。“他们做得非常出色,”哥伦比亚大学的神经科学家尼古拉斯·克里格斯科特指出。 但大脑仍然是广义智能的存在证明,并且就目前而言,是大人工智能研究人员拥有的最佳模型。“人脑有一些工程学尚未征服的诀窍,”克里格斯科特说。
在过去的几十年里,对 AGI 的探索教会了我们很多关于我们自身智能的知识。 我们现在意识到,我们认为容易的任务,例如视觉识别,在计算上要求很高,而我们认为困难的事情,例如数学和国际象棋,实际上是容易的。 我们也意识到,大脑几乎不需要先天知识; 它们通过经验学习几乎所有需要知道的东西。 现在,通过模块化的重要性,我们正在证实古老的智慧,即不存在任何一种叫做智能的东西。 它是一个能力工具箱——从处理抽象概念到驾驭社会复杂性,再到适应视觉和声音。 正如 Goertzel 指出的那样,通过混合和匹配这些不同的技能,我们的大脑可以在我们从未遇到过的领域取得胜利。 我们创造了新的音乐流派,并解决了早期几代人甚至无法提出的科学难题。 我们步入未知——总有一天,我们的人工堂兄弟姐妹可能会与我们一起迈出这一步。
编者注(2024 年 3 月 20 日):本文在发布后进行了编辑,以更正南希·坎维舍和安娜·伊万诺娃的隶属关系。